🦊Ideogram 4.0
👈 |
👉 |
モデルのダウンロード
diffusion_models
text_encoders
vae
code:models
📂ComfyUI/
└── 📂models/
├── 📂diffusion_models/
│ ├── ideogram4_fp8_scaled.safetensors
│ ├── ideogram4_nvfp4_mixed.safetensors
│ ├── ideogram4_unconditional_fp8_scaled.safetensors
│ └── ideogram4_unconditional_nvfp4_mixed.safetensors
├── 📂text_encoders/
│ └── qwen3vl_8b_fp8_scaled.safetensors
└── 📂vae/
└── flux2-vae.safetensors
モデルを2つ使うので VRAMがキツイ
unconditionalの方は nvfp4でも特に問題ないので、fp8(conditional) + nvfp4(unconditional) の組み合わせが良いかもしれない
プロンプトについて
既定のJSONスキーマに従わないとまともにクオリティを出せない。基本形は以下
code:prompt.json
{
"high_level_description": "画像全体の1〜2文の説明。",
"style_description": {
"aesthetics": "雰囲気、審美性。",
"lighting": "ライティング。",
"medium": "illustration / photograph / graphic_design など。",
"art_style": "非写真の場合の画風。",
},
"compositional_deconstruction": {
"background": "背景・環境の説明。",
"elements": [
{
"type": "obj",
"desc": "物体・人物・要素の説明。",
},
{
"type": "text",
"text": "HELLO",
"desc": "文字の見た目の説明。",
}
]
}
}
ただし、こんなものを手で書いてはいられないので以下の方法を使うことになる(と思う)
専用プロンプトビルダーを使う
LLMに任せる
ただ、ComfyUI上で動かせるレベルのモデルだと性能が足りないので、大人しくChatGPTなどに投げたほうが良いとは思う
text2image
https://gyazo.com/c9a2cf1717e87cd1ba28c5d236a02b4d